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摘要 :目的 计算 并 预测 13 562 个 GENCODE 项 目 首 期 鉴定 的 人 类 长 链 非 编码 RNA 在 16 个 哺乳 动物 的 直系 同 源 基 因 ,并 建立 


数据 库 LongMan ,为 长 链 非 编码 RNA 研 究 提供 重要 数据 。 方 法 使 用 RNAfold 预 测 13 562 个 人 类 长 链 非 编码 RNA 每 个 外 显 
子 的 结构 ;使 用 Ifernal 对 每 个 外 显 子 进行 基因 组 搜索 ,分 析 其 在 16 个 哺乳 动物 可 能 的 同 源 外 显 子 ;分 析 每 个 人 类 长 链 非 编码 


RNA 是 否 有 同 源 基因 ;分 析 同 源 长 链 非 编码 RNA 中 的 转 座 子 和 剪 切 信号 ;构造 数据 库 的 搜索 引 敬 和 输出 界面 ;实现 数据 库 维护 


更 新 机 制 。 结果 LongMan 目前 收录 133 646 个 直系 同 源 长 链 非 编 码 RNA; 提 供 序列 ` 比 对 、 转 座 子 和 种 系 特异 性 搬 缺 (indel) 
等 信息 ;提供 多 条 件 组 合 查询 ;提供 显示 与 下 载 功能 。 结论 LongMan 是 首 个 大 规模 多 种 系 同 源 长 链 非 编 码 RNA 数据 库 , 对 长 


链 非 编码 RNA 比较 与 功能 研究 具有 重要 价值 。 
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The beta version of LongMan: a large-scale mammalian lncRNA database orthologous to 
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Abstract: Objective To predict orthologous sequences of the GENCODE-identified 13 562 human long non-coding RNAs 
(IncRNA) in 16 mammalian genomes and construct a lncRNA database LongMan for IncRNA studies. Methods The exon 
Structures of a total of 13 562 human lncRNAs were analyzed using RNAfold, and their orthologous sequences were searched 
against 16 mammalian genomes using Infernal. The Potential orthologous genes, transposons and splicing signals of human 
IncRNAs were predicted to construct a lncRNA database with a updating mechanism. Results and Conclusion The lncRNA 
database LongMan we constructed, which currently contains 133 646 orthologous IncRNAs, provides information of the 
sequences, alignments, transposons, and species-specific insertions and deletions and allows database search on combinatorial 
conditions, graphic display and data download. As the first large-scale mammalian orthologous IncRNA database, LongMan 
has important values in future comparative and functional studies of INcRNAs. 
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XX 染色 体 失 活 基因 簇 印迹 和 基因 组 区 域 的 组 蛋白 
修饰 和 DNA 甲 基 化 都 是 表 观 基因 组 修饰 ,但 调控 这 些 
修饰 的 分 子 机制 多 年 未 能 揭示 。 最 近 人 研究 揭示 ,大 量 表 
观 基因 组 修饰 是 由 长 链 非 编 码 RNA (ong non-coding 
RNA, IncRNA) 调 控 的 ,它们 长 度 大 于 200 bp, 结 构 保 
守 性 高 于 序列 保守 性 ,包含 多 个 功能 域 。 许 多 IncRNA 
能 与 DNA 和 和 蛋白 质 结 合 ,由 此 能 把 polycomb 家 族 和 蛋白 
和 DNA 甲 基 转 移 酶 (DNMT ) 携 带 到 特定 的 基因 组 位 点 
调控 组 蛋白 修饰 和 DNA 甲 基 化 人 。 近 来 发 现 许多 基因 
表达 错误 是 由 基因 组 修饰 错误 导致 的 ,因此 IncRNA 成 
为 生物 医学 研究 一 个 重要 而 发 展 迅 速 的 领域 。 大 量 研 


究 揭 示 IlncRNA 参 与 的 基因 表达 调控 对 许多 生理 与 病 
理 活动 有 重要 影响 ,与 癌症 ”心血 管 疾病 “、 神 经 退行 
性 疾病 ”等 许多 疾病 的 发 生发 展 有 关 , 从 新 的 角度 揭示 
了 肿瘤 .干细胞 .衰老 等 过 程 在 基因 组 层次 的 控制 机 制 。 

与 蛋白 质 编码 基因 相 比 IncRNA 有 3 个 特性 , 即 数 
量 大 .呈现 突出 的 组 织 特异 性 表达 “具有 明显 的 种 系 特 
异性 "。 随 着 大 量 IncRNA 在 越 来 越 多 的 物种 被 发 现 ， 
用 生物 信息 学 方法 收集 ,整合 ,分析 IncRNA 数 据 也 日 
益 必要 ,成 为 IncRNA 功能 研究 的 重要 前 提 .《 核 酸 研 究 》 
的 数据 库 专 辑 等 已 报道 了 若干 IncRNA 数据 库 , 包 括 
IncRNAdb™ LncRNADisease®” \ChIPBase"" DeepBasei 
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等 ,它们 各 有 特点 ( 表 1)。LncRNAdb 收集 经 实验 验证 
的 IncRNA, 包 括 序列 ,物种 功能、 表达 等 信息 ,目前 的 
LncRNAdb v2.0 收 集 了 294 条 IncRNA ,数量 如 此 少 的 
原因 是 大 量 由 RNA-seq 鉴定 的 IncRNA 尚未 得 到 实验 
验证 ,因此 LncRNAdb 对 分 析 新 IncRNA 基因 和 分 析 
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lncRNA 功 能 作用 有 限 。LncRNADisease 收 集 了 人 类 
lncRNA 与 疾病 的 关系 ,从 500 余 篇 文献 中 收录 了 和 221 
种 疾病 相关 的 322 条 lncRNA。 根 据 IncRNA 调控 基因 
组 修饰 的 机 制 , 一 个 IncRNA 导 致 何 种 疾病 取决 于 其 所 
调控 的 基因 组 位 点 丢 基 因 , 因 此 预测 其 基因 组 位 点 和 
靶 基 因 才 能 从 机 制 上 揭示 lncRNA 与 疾病 的 关系 。 


表 1 LongMan 与 已 有 lncRNA 数 据 库 的 比较 


ChIPBase 根 据 ChIP-Seq 数 据 对 lncRNA 的 转录 调节 功 
能 进行 注释 ,但 所 包含 的 IncRNA 也 较 少 。DeepBase 则 
根据 深度 测序 数据 鉴别 和 注释 非 编 码 RNA。 上 述 数 据 
库 都 只 收录 已 鉴定 的 IncRNA( 主 要 在 人 类 和 小 鼠 ) ,不 
含 IncRNA 的 多 物种 同 源 序列 ,对 大 规模 IncRNA 比较 
研究 和 功能 分 析 帮 助 有 限 。 


Tab.1 LongMan and some other INcRNA databases (by Nov 30, 2015) 


Database name Number of incRNA in database 


Database descriptions 


Provide comprehensive anntations of eukaryotic IncRNAs 


Curate the experimentally supported IncRNA-disease association data and 


integrate tool(s) for predicting novel IncRNA-disease associations 


IncRNAdb 294 
LncRNADisease 1886 
ChIPBase 

DeepBase 

LongMan 133646 


际 合作 的 GENECODE 项 目 首 期 报道 了 人 类 的 
13562 个 IncRNA ,深入 分 析 这 些 傅 万 个 InhcRNA 极 其 
必要 ,但 显然 需要 计算 方法 。 分 析 的 第 一 步 是 确定 同 源 
序列 ,然后 对 同 源 序列 进行 保守 性 和 功能 域 分 析 , 这 些 
分 析 是 进一步 功能 研究 的 前 提 。 同 源 IncRNA 对 于 研 
究 IncRNA 的 起 源 和 进化 以 及 lncRNA 的 种 系 特 异性 也 
必 不 可 少 。 目 前 大 规模 的 IncRNA 同 源 数据 尚 无 报道 ， 
本 文 报 道 的 LongMan (Long noncoding RNAs 
orthologous to huMan) 是 首 个 IncRNA 同 源 序列 数据 
库 。 为 了 获得 人 类 lncRNA 在 哺乳 动物 的 同 源 
IncRNA, 根 据 GENCODE"” v18 报 道 的 13 562 个 人 类 
lncRNA ,我们 用 Infernal 软件 在 16 个 哺 肪 动物 基因 组 
的 同 源 区 域 搜 索 同 源 IncRNA, 在 此 基础 上 建立 的 
IncRNA 同 源 序列 数据 库 目 前 包含 133 646 条 IncRNA 
记录 (http://Incrna.smu.edu.cn)。 


1 数据 和 方法 
1.1 人 类 IncRNA 数据 及 基因 组 数据 

人 类 IncPRNA 数据 来 自 于 www.gencodegenes.org/ 
releases/18.html, 根据 GENCODE v18 发 布 的 人 类 
IncRNA 注释 文件 (gtf 文 件 ) 从 人 类 基因 组 (ftp.ensembl. 
org,GRC37/hg19) 获 取 13562 个 IncRNA 的 序列 。 
1.2 哺乳 动物 基因 组 数据 

16 个 哺乳 动物 的 基因 组 数据 下 载 自 UCSC 网 站 
(hgdownload.soe.ucsc.edu/downloads.html) ,物种 和 基 
组 版 本 号 为 Chimpanzee (CSAC 2.1.4/panTro4) ， 
Macaque (BGI CR_ 1.0/rthheMac3) , Marmoset 
(WUGSC 3.2/calJac3) , Tarsier (Broad/tarSyr1) ， 


Decode transcriptional regulation of ncRNAs and protein-coding genes 


from ChIP-Seq dat 


Annotation and disvovery of microRNAs and other noncoding RNAs from 


deep-sequencing data 


Provide human IncRNA homologs and annotations in 16 mammals 


Mouse lemur (Broad/micMurl) , Tree shrew (Broad/ 
tupBell ) , Mouse (GRCm38/mm10) , Rat (Baylor3.4/ 
rn4) , Guinea pig (Broad/cavPor3) , Rabbit (Broad/ 
oryCun2) , Dog (Broad CanFam3.1/canFam3) , Cow 
(Baylor Btau 4.6.l/bosTau7) , Elephant (Broad/ 
loxAfr3) , Hedgehog (EriEur2.0/eriEur2) , Opossum 
(Broad/monDom5) , Platypus (WUGSC 5.0.1/ 
ornAnal)。 

1.3 人 类 -哺乳 动物 全 基因 组 双 序 列 比 对 数据 

16 组 人 类 -哺乳 动物 全 基因 组 双 序列 比 对 数据 下 载 
自 UCSC2 网 站 (hgdownload.soe.ucsc.edu) ,分 别 为 
Human/Chimpanzee, Human/Macague, Human/ 
Marmoset, Human/Tarsier, Human/Mouse lemur, 
Human/Tree Human/Mouse, Human/Rat, 
Human/Guinea pig, Human/Rabbit, Human/Dog, 
Human/Cow, Human/Elephant, Human/Hedgehosg, 
Human/Opossum, Human/Platypus, 基因 组 版 本 号 同 
1.1 及 1.2。 

1.4 人 类 IncRNA 外 显 子 同 源 序列 搜索 

首先 ,根据 人 类 IncRNA 的 基因 组 地 址 以 及 人 类 - 虽 
乳 动 物 全 基因 组 双 序 列 比 对 ,确定 每 个 人 类 lncRNA 基 
因 在 其 它 16 个 基因 组 的 同 源 区 域 。 为 保证 同 源 区 域 有 
可 靠 的 长 度 ,我 们 在 每 个 同 源 区 域 两 端 拓展 了 四 倍 于 同 
源 区 域 的 上 下 游 序 列 作为 该 IncRNA 的 搜索 区 域 。 

如 同 其 它 非 编码 RNA 序 列 ,IncRNA 序 列 可 能 存在 
补偿 性 突变 ,由 此 使 得 IncRNA 序 列 差异 度 大 但 结构 保 
守 度 高 ,不 能 用 通常 的 序列 搜索 方法 与 软件 (如 
BLAST) 搜 索 IncRNA 的 同 源 序列 。 我 们 首先 用 
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RNAfold“( 采 用 默认 参数 ) 对 13562 个 人 类 IncRNA 的 
每 个 外 显 子 进行 结构 预测 ;随后 用 Infernal 中 的 
cmbuild 程 序 对 这 些 外 显 子 的 二 级 结构 构建 CM 模型 ，; 
然后 以 CM 模型 作为 query, 使 用 Infernal 的 cmsearch 程 
序 在 16 个 哺乳 动物 基因 组 ( 同 源 序列 搜索 区 域 ) 中 搜索 
13562 个 人 类 IncRNA 的 每 个 外 显 子 。 由 于 Infernal 难 
以 对 太 长 的 RNA 序 列 进 行 有 效 搜索 ,我 们 对 长 度 > 
1200 bp 的 外 显 子 以 1000 bp 为 单元 进行 切割 ,对 每 个 外 
显 子 或 每 个 切割 后 的 单元 构建 CM 模 型 并 进行 搜索 。 
最 后 ,对 一 个 外 显 子 (或 一 个 1000 bp 的 搜索 单元 ) 
是 否 有 同 源 序列 , 按 以 下 条 件 判 定 :(1) 搜 索 结 果 的 长 
度 ; (2) 搜 索 结 果 的 Infernal 分 数 。 而 对 一 个 人 类 


lIncRNA 是 否 有 可 能 的 同 源 基 因 , 按 以 下 条 件 判定 :(1) 
所 有 外 显 子 的 同 源 序列 连续 分 布 在 同一 条 染色 体 的 同 
一 条 链 上 ;(2) 同 源 外 显 子 数目 必须 至 少 占 长 链 非 编码 
RNA 外 显 子 数目 总 和 的 50%。 
1.5 数据 库 软 件 与 环境 

LongMan 数据 库 采 用 MYSQL 5.1 在 CentOS 6.5 
环境 下 构建 , web 服务 器 采用 Apache HTTP Server， 
web 程 序 在 基于 PHP5 的 Symfony 框 架 下 开发 。 数 据 库 
结构 由 包括 基因 、 同 义 名 、 转 录 本 、 外 显 子 转 座 子 等 在 
内 的 多 个 数据 表 构 成 。 例 如 , “基因 "数据 表 包 括 基因 
ID .序列 名 称 数据 来 源 、 基 因 起 始 地 址 以 及 所 在 链 等 字 
段 。 数 据 库 的 主要 结构 见 图 1。 
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strand exon_ number 
orf _ gene id transcript status 
gene name transcript type 
havana_qene tag homology_i | tb species | 
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seq_ Start 
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transcript status 
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图 1 LongMan 数 据 库 的 主要 数据 结构 


Fig.l Main data structure of LongMan. 


2 结果 
2.1 LongMan 包含 了 迁 今 最 全 面 的 IncRNA 同 源 数 据 
目前 LongMan 数据 库 的 beta 版 收录 了 
GENCODE 18 中 的 13562 个 人 类 IncRNA 以 及 用 
Infernal 搜 索 获 得 的 这 13562 个 lncRNA 基因 在 16 个 哺 
孚 动物 中 的 同 源 序列 。 图 2 展示 了 主要 搜索 结果 ,其 揭 
示 由 原 猴 亚 日 (prosimians) 到 类 人 猜 (simians)IncRNA 
基因 的 数量 有 显著 增加 ,提示 大 量 人 类 lncRNA 与 其 说 
是 灵 长 类 特有 的 ,不 如 说 是 类 人 猿 特有 的 ,为 研究 人 
类 lncRNA 的 起 源 和 功能 提供 了 重要 信息 。 此 外 ,在 从 
家 免 到 嘴 齿 类 的 分 枝 里 ,人 类 IncRNA 的 同 源 基因 数量 
不 断 减 少 , 从 rabbit 的 7230 个 到 mouse 的 4416 个 和 rat 
的 4099 个 ,提示 随 着 中 此 类 的 进化 它们 与 灵 长 类 同 源 


seaqname 


strand 

gf transcript_id 
ranscript_name 
havana_transcript 
Wanscript_status 
transcript_type 
level 

139 
datasource_id 
gene_id 


的 IncRNA 越 来 越 少 。 再 者 ,在 有 袋 类 哺乳 动物 负 鼠 
(opossum) 和 更 原始 的 哺乳 动物 鸭 嘴 兽 (platypus), 人 类 
IncRNA 的 同 源 基因 数量 极其 稀少 ,提示 许多 IncRNA 
在 有 袋 类 哺乳 动物 有 独立 起 源 "。 值 得 注意 的 是 , 劳 亚 
兽 总 目 (Laurasiatheria) 和 非洲 兽 总 目 (Afrotheria) 有 相 
当 多 的 人 类 IncRNA 的 同 源 基因 ,提示 许多 IncRNA 在 
真 哺乳 动物 起 源 后 可 能 随 着 进化 而 在 一 些 种 系 分 校 ( 如 
嘴 齿 类 ) 逐 渐 丢 失 了 。 
LongMan 还 收录 了 若干 其 它 IncRNA 数 据 库 的 数 
据 , 主要 是 IncRNAdb NONCODE 等 中 的 数据 和 注释 
言 息 。 此 外 LongMan 数据 库 还 将 允许 用 户 提 交 
IncRNA 数据 及 注释 信息 。 上 述 数 据 和 特征 使 
LongMan 成 为 迄今 最 全 面 的 IncRNA 同 源 基因 数据 
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Hurman 13562 面 是 剪 切 信号 ,它们 为 判定 一 个 保守 的 同 源 序 列 是 否 为 一 
Chimpanzee -13239 个 外 显 子 提供 了 重要 信息 。 我 们 分 析 了 同 源 IncRNA 内 
ie ee 含 子 中 的 经 典 剪 切 信 号 ,并 将 这 些 信息 存储 于 数据 库 中 。 
Toriger i 2.3 数据 检索 与 下 载 功 能 
Mouse Le daro 为 了 方便 用 户 快速 查 阅 lIncRNA 的 信息 ,LongMan 
Tree Shrew 和 站 允许 用 户 定义 多 属性 多 条 件 查 询 , 通 过 多 个 关键 词 提高 
Mouse 4 数据 库 搜索 的 效率 和 精度 。LongMan 数 据 库 还 提供 了 
Fa 9 数据 下 载 功能 ,允许 用 户 批量 下 载 数 据 。 

uimea Pig el 。 
Ratbibil T2380 2.4 同 源 序列 比 对 与 显示 
fow El LongMan 实 现 了 方便 的 可 视 化 显示 功能 ,能 够 显示 
Hchos ee IncRNA 基 因 的 重要 属性 ,包括 序列 转 座 子 和 六 切 信号 
E lephand BTS 等 ,并 人 允许 用 户 对 图 形 化 显示 进行 移动 和 缩放 ,将 IncRNA 
Passum 3323 序列 放大 到 碱 基 级 别 或 粗略 到 外 显 子 级 别 (图 4)。 
Platypais li 


图 2 人 类 IncRNA 同 源 基因 在 各 物种 基因 组 中 的 分 布 
Fig.2 Distribution of homologs of human lncRNA in multiple 
mammalian genomes. 


库 。 一 个 特别 重要 的 lncRNA 是 ANRIL (也 称 
CDKN2B-AS) , 它 调控 CDKN2A/ARF/CDKN2B 的 表 
达 , 表 现 出 特别 的 种 系 特异 性 和 进化 特征 (图 3)""。 
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图 3 LncRNA ANRIL 在 哺乳 动物 中 的 同 源 序列 
Fig.3 Homologs of IncRNA ANRIL in mammals (see 
2013He S et al!'™” for more details). 


2.2 LongMan 包含 了 对 lncRNA 同 源 基因 的 初步 分 析 
与 注释 

LncRNA 的 重要 特征 之 一 是 包含 大 量 转 座 子 ,尤其 
是 种 系 特异 性 转 座 子 "” ,这 些 转 座 子 对 IncRNA 的 形 
成 .进化 与 功能 具有 重要 作用 了”。 我 们 分 析 了 每 个 同 
源 IncRNA 是 否 包含 转 座 子 以 及 转 座 子 的 类 别 与 序列 ， 
并 将 这 些 信息 存储 于 数据 库 中 。 

对 IncRNA 同 源 基 因 初 步 分 析 与 注释 的 男 一 个 方 
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图 4 LongMan 的 数据 显示 界面 示意 图 
Fig.4 Graphic display of search results in LongMan. 


2.5 数据 库 维 护 与 更 新 

LongMan 按 不 同 周 期 实行 更 新 ,将 每 季度 根据 相 
关 数 据 库 (IncRNAdb 等 ) 的 数据 进行 增补 更 新 ,每 半年 
根据 转 座 子 数 据 库 (RepeatMasker 等 ) 进 行 转 座 子 注释 
更 新 ,每 年 按 GENCODE 数据 库 进 行 记录 更 新 。 


3 讨论 

本 人 研究 的 一 个 重要 问题 是 Infernal 搜 索 是 否 产 生 
可 靠 的 直系 同 源 IncRNA 序列 。 对 Infernal 的 有 关 分 析 
及 我 们 先前 的 工作 均 提示 Infernal 是 可 靠 的 RNA 序列 
搜索 软件 ""。 除 了 人 类 ,GENCODE 项 目 也 系统 鉴定 了 
小 鼠 的 IncRNA,Airn 和 HI19 在 human 和 mouse 的 已 知 
结果 也 为 我 们 的 搜索 结果 提供 了 支持 例证 。 由 于 起 源 
不 同 ,人 类 Airn 在 小 鼠 没 有 同 源 序列 (图 5A); 而 人 类 
Aim 的 每 一 个 外 显 子 也 确实 没有 在 小 鼠 的 同 源 区 域 搜 
索 到 同 源 序列 。 与 之 相反 ,H19 是 一 个 保守 度 高 的 
lncRNA ,我 们 的 搜索 结果 表明 ,人 类 H19 的 exon2 对 应 
小 鼠 Hl9 的 exonl( 重 合 度 60.7% ) ,人 类 Hl9 的 exon3 
对 应 小 鼠 H19 的 exon2( 重 合 度 100% ) ,人 类 了 19 的 
exon4 对 应 小 鼠 H19 的 exon3+exon4( 重 合 度 100% + 
99.7%), 图 5B 显示 了 Infernal 搜 索 结 果 在 小 鼠 同 源 区 域 
的 情况 ,鉴于 IncRNA 大 多 有 数 个 转录 本 ,我 们 对 所 有 
转录 本 进行 了 合并 以 确保 没有 遗漏 信息 。 

GENCODE 项 目的 最 新 研究 揭示 人 类 基因 组 存在 
多 达 数 万 的 IncRNA 基因 ,这 些 新 基因 对 人 类 进化 . 生 
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图 5 Airn (高度 种 系 特异 ) 与 H19( 高 度 保守 ) 的 Infernal 搜 索 结果 
Fig.5 Infernal search results of Airn (highly species-specific) and H19 (highly conserved). A: The 
whole-genome alignments indicate that human Airn has an orthologous region in marmoset but not 


in mouse or rat. Consistent with the alignment result, Infernal only identified orthologous sequences 


of human Airn in marmoset but not in mouse or rat; B: The pink track indicates that the 
Infernal-identified human H19 in mouse overlaps exactly with the GENCODE-identified mouse H19. 


理 与 疾病 具有 重要 作用 ,它们 所 调控 的 表 观 基因 组 修饰 
是 许多 疾病 发 生 与 发 展 的 重要 机 制 。 基 于 同 源 基因 的 
基因 序列 分 析 是 基因 功能 研究 的 重要 前 提 , 根 据 大 量 同 
源 基 因 的 序列 可 有 效 确定 序列 的 保守 性 \ 保 守 段 和 种 系 
特异 性 插入 和 缺失 ,进而 分 析 基 因 的 功能 域 。 

使 用 RNA-seq 可 鉴定 一 个 物种 的 IncRNA。 但 由 
于 lIncPRNA 表达 具有 高 度 的 组 织 特 异性 ,对 少量 组 织 测 
序 无 法 可 靠 鉴 定 某 物种 的 IncRNA， 而 对 大 量 组 多 序 
则 花费 过 于 昂贵 。 大 量 研究 证 明 使 用 计算 方法 可 以 鉴 
定 和 分 析 IncRNA 同 源 基因 , 且 具 有 较 好 的 可 行 性 和 经 
济 人 性 ,可 分 析 大 量 IncRNA。 我 们 构建 的 人 类 lncRNA 
同 源 序列 数据 库 LongMan 不 仅 具 有 基因 多 ,物种 多 的 
特点 ,而 且 包 含 了 许多 次 级 信息 ,是 目前 全 面 收录 
lncRNA 同 源 基因 的 公开 、 免 费 数据 库 (http:Wincrna.smnu. 
edu.cn) ,能 够 为 IncRNA 人 研究 提供 有 力 的 支持 和 帮助 。 
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